寒武纪1号诞生：谢赛宁Yann LeCun团队发布最强开源多模态LLM

就像动物有了眼睛，谢赛宁 Yann LeCun 团队的 Cambrian-1 能让 AI 获得强大的视觉表征学习能力。

古往今来，许多哲学家都探究过这个问题：理解语言的含义是否需要以感官为基础？尽管哲学家们看法不一，但有一点却不言而喻：坚实有效的感官定基（grounding）至少能带来助益。

比如科学家们普遍相信，寒武纪大爆发期间视觉的出现是早期动物演化的关键一步；这不仅能帮助动物更好地找寻食物和躲避捕食者，而且还有助于动物自身的进化。事实上，人类（以及几乎所有动物）的大多数知识都是通过与物理交互的感官体验获取的，比如视觉、听觉、触觉、味觉和嗅觉。这些感官体验是我们理解周围世界的基础，也是帮助我们采取行动和决策的关键。

这些思想不仅仅能用来探究哲学概念，而且也具有实用价值，尤其是近期多模态大型语言模型（MLLM）的发展，更是让视觉表征学习与语言理解来到了实践应用的关注核心。语言模型表现出了非常强大的规模扩展行为，而多模态学习领域的近期进展也很大程度上得益于更大更好的 LLM。

另一方面，人们仍旧没有充分探索视觉组件的设计选择，并且这方面的探索与视觉表征学习的研究有所脱节。这主要是因为这方面的研究非常困难：MLLM 涉及复杂的训练和评估流程，需要考虑的设计选择非常多。

近日，纽约大学谢赛宁和 Yann LeCun 团队以视觉为中心对 MLLM 进行了探索，填补了这一空白；他们还基于这些探索成果构建了 Cambrian-1（寒武纪 1 号）系列模型。（

云奕文章网

寒武纪1号诞生：谢赛宁Yann LeCun团队发布最强开源多模态LLM

相关推荐：